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基于 分 段 的 移动 对 象 轨迹 简化 算法 
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(上 海 海事 大 学 信息 工程 学 院 ， 上 海 201306) 


摘 要 : GPS 的 高 采样 率 使 轨迹 的 数据 规模 巨大 ， 在 实际 应 用 中 难以 处 理 ， 需 要 依赖 轨迹 简化 算法 对 原始 数据 进行 压 

缩 。 针 对 此 问题 ， 提 出 了 一 种 新 的 基于 速度 分 段 的 轨迹 简化 算法 ， 即 STS 算法 ， 在 保留 速度 特征 的 同时 保留 了 给 定 轨 
迹 的 时 空 特征 。STS 算法 将 速度 值 分 组 成 若干 间隔 ， 将 轨迹 分 割 成 速度 保留 段 ， 计 算 各 轨迹 段 的 SED BE, 38 64 

个 子 轨迹 段 上 应 用 TD-TR 算法 导出 简化 的 轨迹 。 通 过 真实 的 数据 集 进 行 广泛 实验 ， 验 证 所 提出 的 算法 比 ATS 算法 具 

有 更 好 的 性 能 。 
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Segmentation-based trajectory simplification algorithm 
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e Abstract: The high sampling rate of GPS makes the data set of the trajectory huge, which is difficult to handle in practical 
applications. It needs to rely on trajectory simplification algorithm to compress the original data. Aiming at this problem, a new 


simplification algorithm based on speed segmentation was proposed, namely STS algorithm, which preserved the spatiotemporal 


characteristics while preserving the velocity characteristics of a given trajectory. The STS algorithm divided the velocity values 


into several intervals and divides the trajectory into velocity-preserving segments. It calculated the SED threshold of each 


ph- trajectory segment and derives a simplified trajectory by applying the TD-TR algorithm on each sub-trajectory segment. 


Extensive experiments with real datasets demonstrate that the proposed algorithm has better performance than ATS algorithms. 


Key words: moving object; silhouette coefficient; TD-TR algorithm; CART; trajectory simplification 


“其 次 , 通过 蜂窝 或 卫星 网 络 发 送 大 量 轨迹 数据 的 成 本 非常 高 ， 

一 般 每 兆 字 节 在 5~7 美元 " 。 因 此 ， 假 设 追 踪 4,000 辆 车 的 轨 

近年 来 , 全 球 范围 内 销售 的 GPS 设备 数量 大 幅 增长 。 研究 W, 一 天 的 成 本 约 为 5 000~7 000 美元 , 每 年 约 为 180 000~2,500 

市 场 格局 的 信息 技术 公司 Canalys 在 报告 中 称 , 2006 年 至 2007 000 美元 。 最 后 ， 随 着 轨迹 数据 的 规模 增 大 ， 从 数据 中 检测 有 

年 期 间 GPS 装置 的 销售 数量 增长 了 116%"。 以 GPS 为 基础 的 ” 效 的 特征 信息 将 变 得 更 加 困难 。 缩 减 轨迹 数据 的 规模 有 可 能 加 
移动 设备 所 构建 的 基于 位 置 的 服务 和 应 用 代表 着 迅速 扩大 的 消 ，” 速 轨迹 模式 的 挖掘 ”。 

费 者 市 场 。2009 年 ， 预 估 有 2700 万 台 配 备 GPS 的 智能 手机 在 
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全 球 各 地 销售 , 仅 在 消费 市 场 上 就 将 全 球 GPS 用 户 群 带 到 至 少 1 

6800 万 人 “”。 这 些 设 备 有 能 力 产 生 、 存 储 和 传输 轨迹 数据 。 轨 11 轨迹 简化 算法 的 研究 现状 

迹 被 定义 为 由 位 置 (纬度, 经度) 和 时 间 信 息 组 成 的 三 元 组 数 最 早 的 基于 距离 的 轨迹 压缩 算法 是 Douglas 和 Peucker 提 

据 流 。 出 的 Douglas-Peucker 算法 (简称 DP 算法 ) “， 其 递归 地 选择 
前 基于 位 置 的 应 用 程序 在 使 用 轨迹 数据 时 主要 存在 三 个 ” 垂直 距离 大 于 给 定 闵 值 的 点 ， 直 到 所 有 保留 点 满足 条 件 。 后 来 


问题 。 首 先 ， 大 量 的 轨迹 数据 的 存储 可 能 会 快速 地 淹没 可 用 的 。” ”Meratnia 和 Rolf 提出 了 TD-TR 算法 ”, 是 一 种 自 顶 向 下 的 时 间 
数据 存储 空间 。 例 如 ， 如 果 轨 迹 点 数据 以 每 10s 的 时 间 间 隔 被 比 算法 ， 它 通过 用 SED 代替 垂直 距离 来 充分 考虑 时 空 特征 。 
收集 ， 那 么 1GB 的 存储 容量 仅 能 存储 约 4 000 BAIE P. TD-TR 算法 的 基本 思想 是 : 给 定 轨迹 四 和 参数 & ， 通过 重复 添 


此 ， 如 何 有 效 地 存储 和 查询 GPS 轨迹 是 一 个 值得 研究 的 领域 ” 加 了 中 的 点 得 到 一 个 新 的 轨迹 T' ， 直 到 7 的 时 间 - 同 步 欧 氏 
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录用 稿 
IEA (SED) 小 于 & 。 该 算法 最 初 使 用 轨迹 的 第 一 个 和 最 后 
个 点 来 近似 原始 轨迹 。 然 后 , 重复 选择 引起 最 大 SED 误差 的 点 ， 
使 用 该 点 来 更 准确 地 近似 原始 轨迹 的 过 程 。 当 最 大 SED 误差 
小 于 & 时 ， 该 过 程 停止 

Wu 等 人 提出 了 Opening Window Time-Ratio 算法 ,使 用 
SED 代 蔡 垂直 距离 来 考虑 时 间 特 征 。2013 年 ，Long 等 人 " 提 
出 了 基于 方向 的 轨迹 简化 算法 ， 通 过 给 定 的 角度 阔 值 来 简化 轨 
迹 ， 使 求 出 的 简化 轨迹 最 大 角度 值 不 大 于 给 定 的 角度 闵 值 。 在 
文献 [11] 的 基础 上 ， 文 献 [12] 提 出 了 简化 轨迹 的 数量 在 不 大 于 
给 定 值 的 情况 下 ， 使 得 简化 轨迹 与 原始 轨迹 方向 阔 值 最 小 的 简 
化 算法 .Deng 等 人 "基于 文 [11] 提 出 了 基于 方向 的 实时 简化 算 
法 。 称 这 类 轨迹 简化 算法 为 基于 方向 的 轨迹 简化 算法 (DPTS)。 
在 最 近 的 研究 中 , Lin 等 人 "考虑 轨迹 的 速度 特征 , 提出 了 
速度 保留 的 ATS 算法 。 ATS 算法 首先 使 用 肘 方 法 确定 k 值 将 速 
度 值 聚 类 分 段 表示 ， 将 原始 轨迹 分 解 成 速度 保留 子 轨 迹 。 然 后 
根据 基于 最 小 长 度 原理 (MDL) 的 阔 值 决策 模型 ， 从 而 得 出 不 
同 子 轨 迹 的 空间 误差 阔 值 。 最 后 使 用 Douglas-Peuker 算法 用 于 
导出 简化 轨迹 。ATS 算法 在 将 速度 值 聚 类 过 程 中 使 用 Elbow 77 
法 需要 人 为 判断 ， 无 法 直接 得 到 K-means 聚 类 所 需 k 值 ， 对 分 
段 后 的 轨迹 使 用 Douglas-Peucker 算法 推导 出 简化 轨迹 。 本文 对 
其 进行 改进 ， 使 用 轮廓 系数 法 计算 k 值 实现 批量 化 聚 类 ， 并 在 
简化 过 程 中 加 入 时 间 维 度 ， 使 用 TD-TR 算法 推导 出 简化 轨迹 ， 
进一步 考虑 了 轨迹 的 时 空 特性 ， 减 小 SED 误差 。 
1.2 定义 与 记号 

定义 1 轨迹 点 。 定 义 了 为 轨迹 点 ， 表 示 为 一 个 三 元 组 ， 
HU p =(x, yt) ,组 内 对 应 属性 分 别 代表 该 点 的 经 度 、 纬 度 、 时 
间 。 


定义 2 原始 轨迹 ,原始 轨迹 7 为 若干 有 序 轨迹 点 的 集合 。 
T - (p.p... p, (i e[Ln]) > 其 中 p, st, 
ti <t, <. <t <t, o 

原始 轨迹 了 中 轨迹 点 的 个 数 
ABC [T| - 19 n 一 1。 


] | 表示 ， 则 7 中 轨迹 段 的 


1.3 ”基于 分 段 的 轨迹 简化 问题 定义 
速度 保留 轨迹 简化 问题 定义 如 下 。 给 定 原始 轨迹 了 和 如 表 
1 所 示 的 速度 -误差 表 ， 其 包含 速度 间隔 和 SED RARER 


全 ,推导 出 简化 轨迹 ;= (p, Pa, peso Po, > 其 满足 以 下 
TOR: a) XE Tu, 中 的 轨迹 段 ， 原 始 轨迹 点 与 其 相对 应 的 简化 


sim 


后 轨迹 之 间 的 时 间 -同步 欧式 距离 小 于 二 Xh es v( pp; ) 


所 在 速度 间隔 中 相应 的 SED RERE. b) | 全 | 最 小 化 。 
del 速度 -误差 表 
速度 值 Vez pH 
viv € 
v, -V £; 
v-v; £, 


速度 一 误差 表 是 该 问题 的 输入 之 一 ， 它 表示 在 不 同 的 速度 
应 采用 不 同 的 SED 误 差 阐 值 。 简 化 的 轨迹 可 以 理解 为 通过 使 
] 尽 可 能 少 的 点 来 保持 位 置 和 速度 特征 。 


2 ”基于 分 段 的 轨迹 简化 算法 


2.1 STS 算法 的 框架 描述 

在 本 节 中 , 提出 了 基于 分 段 的 轨迹 简化 算法 CSTSO 。 简 而 
言 之 ，STS 算法 首先 从 原始 轨迹 的 观察 中 导出 速度 误差 表 ， 然 
后 使 用 该 表 导 出 简化 的 轨迹 。STS 算法 的 框架 如 图 1 所 示 。 首 
先 ， 从 速度 值 的 分 布 中 找 出 代表 性 的 速度 间隔 。 然 后 ， 基 于 这 
些 代表 性 的 速度 间隔 ,通过 它们 将 整个 轨迹 划分 成 若干 子 轨迹 ， 


Se: 


定义 3 简化 轨迹 。 原 始 轨迹 7 经 过 算法 删除 若干 轨迹 点 
( 除 首 尾 点 ) IST. 是 简化 后 有 序 轨迹 点 的 集合 。 定 
X 为 Tin = (p, Poo Dares Ps, ) 
(1<s «s, «s, &nHmxn). 
Mns sim 中 轨迹 点 的 个 数 用 | 了 ;| 表示， 则 荆 ;, 中 轨 
一 1 或 m 一 1。 


Ed Keg E 
A p, 和 pj(1<i<j<n) 的 连 线 ,用 pp, Xm. un 
j 一 i=1， 则 认为 p, 和 ;是 相 邻 的 ， 相 邻 两 点 之 间 所 连 的 线 
段 称 为 轨迹 7 或 轨迹 了， 中 的 轨迹 段 。 

定义 5 轨迹 段 的 长 度 、 平 均 速 度 。 原 始 轨迹 或 简化 轨 
FP， 对 轨迹 点 p, 和 pj (1<i<j<n), 若 p; 和 pj; 相 
邻 , 则 轨迹 段 的 长 度 用 d (pp) 表示 , 相应 轨迹 段 的 平均 速度 


v(p,p;) 表示。 


a 


每 个 子 轨 迹 具有 与 其 他 子 轨迹 具有 显著 不 同 的 速度 值 。 根 据 速 
度 -误差 表 和 子 轨迹 的 平均 速度 来 确定 合适 的 阐 值 。 最 后 ,通过 


TD-TR 算法 推导 出 简化 的 子 轨迹 , 通过 连接 简化 后 子 轨迹 从 而 


获得 简化 轨迹 。STS 算法 的 细节 将 在 以 下 部 分 进行 描述 。 
原始 轨迹 聚 类 方法 » x pde 
CART 决 策 树 
ede P 计算 各 段 sSED 误 差 de 
TD m 
Bc 合并 简化 后 子 轨迹 一 | CERERI 


€ 1 STS 算 法 框架 
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RMI ， 等 : 4 移动 对 象 轨迹 简化 算 ; 


2.2 导出 代表 速度 区 间 
本 节 介 绍 了 构造 速度 -误差 表 时 , 设置 速度 间隔 的 方法 。 为 
了 确定 这 些 速度 间隔 的 分 割 方法 ， 本 文 将 聚 类 方法 应 用 于 轨迹 
数据 集 的 速度 特征 , 从 而 将 速度 值 划分 为 若干 组 。 使 用 K-means 
对 速度 值 进行 聚 类 以 获得 具有 代表 性 的 速度 间隔 ， 其 中 K 值 是 
数据 所 分 类 数 ， 应 由 用 户 给 出 ， 但 从 数据 集 属性 的 先 验 知识 无 
法 判断 k 的 合适 值 。 因 此 ， 本 文 使 用 了 轮廓 系数 方法 05 来 确定 
k 的 取 值 。 轮 廓 系数 旨 在 将 某 个 对 象 与 自己 的 簇 的 相似 程度 和 
与 其 他 簇 的 相似 程度 进行 比较 。 轮 廊 系 数 最 高 的 复 的 数量 表示 
复 的 数量 的 最 佳 选择 。 轮 廓 系数 结合 了 凝聚 度 和 分 离 度 ， 其 计 
算 步 又 如 下 : 

DIFE i 个 对 象 ， 计 算 它 到 所 属 簇 中 所 有 其 他 对 象 的 习 
均 距离 ， 即 i 向 量 到 同一 簇 内 其 他 点 不 相似 程度 的 平均 值 ， 记 


IN 


average(i) 体现 凝聚 度 ) 


b) 对 于 第 i 个 对 象 和 不 包含 该 对 象 的 任意 簇 ， 计 算 该 对 象 
到 给 定 徐 中 所 有 对 象 的 平均 距离 ， 即 i 向 量 到 其 他 簇 的 平均 不 


相似 程度 的 最 小 值 ， 记 为 min(i) (体现 分 离 度 )。 


co) 第 i 个 对 象 的 轮廓 系数 计算 公式 为 


s(i)= 


— max laverage(i), min (i)} 


min(i) —average(i) 


此 可 得 , 轮廓 系数 取 值 为 [-1, 1], 其 值 越 大 表示 聚 类 效果 
越 好 ， 当 计算 结果 接近 0 时 ， 表 明 样 本 i 在 两 个 簇 的 边界 上 。 


当 计算 结果 为 负 时 , 表明 average(i) > min(i) , 样本 i 被 分 


配 到 错误 的 簇 中 ， 更 应 该 被 分 配 到 其 他 簇 中 。 

如 图 2 所 示 , 示例 中 为 了 求 得 13 个 点 的 最 佳 聚 类 k 值 , 将 
k 值 取 为 2、3、4、5、8 并 分 别 计算 其 轮廓 系数 ， 当 k=3 时 计 
算出 轮廓 系数 为 0.722， 此 时 轮廓 系数 最 大 , 根据 轮 廊 系数 法 原 
里 ， 其 值 越 大 表示 聚 类 效果 越 好 ， 所 以 示例 中 将 k 值 取 3 为 最 
ERX k 值 。 


样本 K = 2， 轮 廓 系数 = 0.471 
10 10 
a . 加 i? 
. o A VN 
ew 6 . 四 
. = 
e . . . =. 
. e . . - EI 
一 一 一 o 
o 2 H H 8 10 o 2 4 H H 10 
š K=3, RMA = 0.722 " K = 4， 轮 万 系数 = 0. 644 
8 . bd 
. € 全 + 
6 . o 全 + 
4 
LI * . = 
2] m= a * . . LI 
E * * . X =. 
9 o 
2 4 6 8 o 2 4 6 H 
€ K = 5， 轮 廊 系 数 = 0.478 » K = 8， 轮 廊 系 数 = 0.340 
a . a M 
. o v. 
6 . o 6 =. m 
4 4 
=. A A - 
21 v" = * 21 e A . 
v * A LI LJ 十 
o o+ 
H 2 4 H 8 10 o 2 4 5 3 10 


图 2 计算 轮廓 系数 求 k 值 示例 


2.3 分割 原始 轨迹 

本 节 描 述 了 如 何 将 原始 轨迹 划分 成 若干 子 轨 迹 的 方法 ， 使 
得 子 轨迹 之 间 的 速度 值 具有 显 着 差异 。 为 了 达到 这 个 目的 ， 使 
用 CART 决策 树 方法 09 判 断 轨 迹 是 否 应 分 为 两 部 分 及 如 何 分 
|。 为 了 在 本 文 问题 中 利用 CART 决策 树 方法 的 Gini 系数 分 


E 


类 法 ， 原 始 轨迹 7=( p, Pos p, ) 被 转换 为 


T' -(L.L,,..L, )， 其 中 石 为 轨迹 点 速度 值 在 速度 分 类 


区 间 中 的 所 属 类 ， 即 速度 标签 。 速 度 v( py. pi.) 均 包含 在 此 
由。 例如， 给 定 y( py, p,) = 28 及 表 2 中 的 速度 值 分 类 区 


间 ， 瑟 的 值 可 以 被 推导 出 为 1。Gini 系数 定义 为 


2 
cn- 中 2 ， 其 中 为 速度 标签 了" 的 总 


N(L) 


i 


Ki NÒ) ATP L 相等 时 出 现 的 数量 总 和 ， 


表 


示 各 类 速度 标签 在 T* 中 出 现 的 频率 。 例 如 ， 


T=(pi,P,…, Ps)， 假 设 其 转换 后 的 结果 "为 T= (Li LL) 


=(0,0,1,0,0,0,1,1,2,2,2,2) 。 原 始 轨 迹 点 数 为 13， 所 以 转换 后 


WERE 12, k-12, L-L-L-L-L-0, BU 


N(0-5, L, 2L, -2L,-1, 所 以 N(1)=3, 


L-L,-Lh-L-2, BAN(2)-4. 数据 LL 计算 所 得 的 


Gini 系数 越 大 ， 代 表 L 在 整体 数据 集合 中 的 差异 性 越 大 。 基 


此 ， 在 本 文 的 设置 中 ， 所 需 的 子 轨 迹 是 基尼 系数 小 的 轨迹 。 划 
分 原始 轨迹 的 方法 在 算法 1 中 列 出 。 
算法 1 分 割 原始 轨迹 fr _ partition 算法 ) 


输入 : 原始 轨迹 7 , DARE Gini,.. 
输出 : S, ON esa] 
l: S, =Ø 


2 T =L; brat 


3:if Gini (T,) < Gini pin then 


录用 稿 


4: return (T, } 
5: end 

Sr " es v : 
6: 1 二 arg min0.;., (Gini,,, (Tiaa )) ? 


S =S Ltr partition(T,, „Gini sin) 


tr partition (T, Gini nin ) ; 

8: return Ss 
类 | 速度 (km/h) 
0 0-25 
1 25-47 
2 47-88 
3 >88 

a) 使 用 最 小 Gini pu f T” 分 割 成 两 个 轨迹 段 


Ti SU bash) us 于 Ua asl s 


Gini p 的 定义 如 下 : 


"NS v 
Gini pi (T, 


Lin-l 


)-ii(r;)« A Gini(1;,,.) 其 中 N ， 


NN ÆT TAT 


i+l,n-1 


Ws BN +N,=N. 


DNF TY 和 TY ， 计 算 它们 的 基尼 系数 Gini Ti ) 及 


Gini(T;,, , ) 。 对 于 每 一 个 子 轨迹 , 如 果 其 基尼 系数 大 于 给 定 


BRE Gini,. ， 递 归 地 进行 操作 a). 


2.4 计算 SED ix ZH 

本 节 讨 论 如 何 为 每 个 速度 间隔 选择 SED RABE E 。 在 此 
步 又 之 后 ,可 以 建立 速度 -误差 表 。 由 于 这 些 子 轨 迹 具有 相似 的 
速度 标签 ， 所 以 观察 这 些 子 轨 迹 可 以 帮助 每 个 代表 速度 间隔 决 
定 适当 的 SED R% WË SED (Synchronized Euclidean Distance) 


即 同步 欧式 距离 ， 如 图 3 所 示 ，SED 距离 为 P 与 P' 之 间 的 欧 


KER, IP P 坐标 位 置 的 具体 计算 公式 如 下 。 


Ae —t, —t, 
Ai =t — t, 


T 
(ts, Ts, y.) 9) 


图 3 SED 距离 的 定义 

简化 后 较 低 的 误差 和 较 小 的 轨迹 规模 通常 是 互相 制约 的 ， 
因此 难以 同时 实现 。 为 了 在 这 两 个 因素 之 间 取 得 良好 的 平衡 ， 
定义 了 一 个 Balance 值 ， 表 示 每 一 次 迭代 循环 的 SED 误差 比分 
与 轨迹 规模 比分 之 间 的 和 ，Balance 值 越 低 表示 更 好 的 拟 合 简 
化 。 因 此, 我 们 可 以 获得 不 同 速 度 变 化 范围 内 子 轨迹 的 优化 & 。 


在 开始 闪 代 时 初始 的 子 轨迹 表示 为 了 =(p, p, ) 。 简 化 子 轨迹 


的 Balance 值 定义 如 下 : 
d Ze. —2 
timet SOHO. , IUE. 
sed error. SIZe —2 


sed _error 为 最 简 轨 迹 ， 即 全 =( p, p, ) 到 原始 轨迹 
中 某 一 点 的 最 大 SED 距离 ，size 是 原始 轨迹 的 大 小 。 


sed. error, 是 在 简化 过 程 中 从 未 简化 的 原始 轨迹 中 的 某 一 


点 到 已 简化 轨迹 之 间 的 最 大 SED 距离 , 伴随 着 轨迹 简化 的 进度 


将 不 断 变化 。 size, 是 在 简化 过 程 中 随 之 对 应 的 简化 轨迹 的 大 


小 , 同样 随 着 轨迹 简化 不 断 变 化 。& 的 增加 会 增加 error 的 值 ， 
但 减少 size 的 值 ， 反 之 亦 然 。 因 此 ， 最 小 化 balance 值 可 以 得 
到 在 size 和 error 之 间 达 到 最 佳 平衡 的 闵 值 6 。 
本 文中 计算 SED 误差 阔 值 如 算法 2 中 所 示 , 该 算法 的 基本 
原理 是 找到 简化 轨迹 和 原始 轨迹 之 间 的 最 大 偏差 ， 即 原始 轨迹 
误 


中 的 点 和 简化 轨迹 中 的 点 之 间 最 远 SED 距离 , 并 将 此 值 设 置 为 
最 大 & ， 并 将 该 点 添加 到 简化 轨迹 。 因 此 ， 最 大 偏差 缩小 ， 

化 轨迹 的 规模 增 大 。 然 后 ， 计 算 该 简化 轨迹 的 Balance fH. 
则 存储 最 小 Balance 值 和 


误差 可 以 得 到 最 小 Balance 值 时 ， 


差 值 。 整 个 过 程 重复 ， 直 到 简化 轨迹 全， 包含 原始 轨迹 了 中 的 


sim 


liri 


所 有 点 。 最 后 计算 出 导致 最 小 Balance 值 的 误差 值 & 。 算 法 2 


的 时 间 复杂 度 为 O(logn) 。 


算法 2 WAESEDIRZEBUÉ 
输入 :原始 轨迹 了 


ChinaXiv 合 作 期 刊 
录用 稿 K a, E: 基于 分 段 的 移动 对 象 轨 还 简化 算法 
输出 : 合适 的 误差 阔 值 € 5 秒 ， 大 部 分 数据 的 收集 发 生 在 中 国 北 京 附 近 ， 少 量 在 美国 和 
欧洲 。 
l: T'-(p. P, ); 表 3 数据 集 
: 轨迹 数量 | 轨迹 点 数 
2: while |T'|z [T| ao ms 名 称 iZ S 
1 微小 数据 集 865 10-300 
3: 找到 从 了 到 7T' 之 间 SED 距 离 最 远 的 点 p,; 2 小 数据 集 660 300-800 
3 中 数据 集 515 800-1600 
4: Æp maT); 4 大 数据 集 822 1600-6400 
5 超大 数据 集 201 > 6400 
5: balance = Balance(T '); 为 了 确定 算法 对 于 简化 性 能 与 轨迹 长 度 之 间 的 关系 ， 将 原 
台 轨 迹 分 为 5 类 : 微 短 轨迹 ， 短 轨迹 ， 中 等 轨迹 ， 长 轨迹 和 超 
6: if balance < balance in then 长 轨迹 。 微 短 轨迹 中 每 个 轨迹 有 10-300 个 点 。 短 轨迹 中 每 个 轨 


迹 有 300-800 个 点 。 中 等 轨迹 中 每 个 轨迹 有 800-1600 个 点 。 
长 轨迹 中 每 个 轨迹 有 1600~6400 个 点 。 超 长 轨迹 中 每 个 轨迹 有 


7: balance» = balance; 
6400 多 个 点 。 通 过 这 五 类 轨迹 ， 如 表 3 所 示 ， 将 原始 数据 集 也 
. 8 n. 分 为 五 类 : 微小 数据 集 ， 小 数据 集 ， 中 数据 集 ， 大 数据 集 和 超 
8: & - error(T '); RUM H mE ME 
大 数据 集 。 序 列 号 为 1~5， 对 不 同 规模 数据 集 下 的 压缩 时 间 、 
9: end 简化 率 、SED 误差 、 速 度 误 差 和 空间 误差 进行 测试 。 
10: end 先 对 本 文 所 提出 的 STS 算法 与 ATS 算法 在 压缩 时 间 和 
iiesetiuru- £: 简化 率 等 方面 进行 了 比较 , 说 明了 STS 算法 能 够 在 简化 率 持平 
的 情况 下 减少 压缩 时 间 。 然 后 ， 对 于 STS 算法 、ATS 算法 、 


2.5 导出 简化 轨迹 

本 节 介 绍 在 经 过 以 上 步骤 , 得 出 速度 -误差 表 后 , 使 用 速度 
-误差 表 简 化 轨迹 的 方法 。 在 通过 速度 值 将 轨迹 划分 为 子 轨迹 之 
后 ,使 用 TD-TR 算法 外 进行 简化 轨迹 。TD-TR 算法 是 对 Douglas- 
Peucker 算法 的 改进 ，Douglas-Peucker 算法 使 用 垂直 欧 氏 距离 


Douglas-Peucker 算法 (简称 DP 算法 ) 及 TD-TR 算法 ， 比 较 了 
四 个 算法 之 间 的 平均 SED 误差 、 速 度 误差 以 及 空间 误差 。 
3.2 度量 指标 及 算法 比较 
3.2.1 基于 简化 时 间 及 简化 率 的 评估 
简化 时 间 是 指 原始 轨迹 段 进行 简化 过 程 的 运行 时 间 ， 是 衡 

(CPED) 计 算 点 p, 与 近似 轨迹 之 间 的 误差 距离 ， 具 有 忽略 时 态 数 。” 量 轨迹 简化 效率 的 重要 依据 ， 在 实际 应 用 中 ， 简 化 时 间 越 短 越 

好 。 图 4 描述 了 STS 算法 与 ATS 算法 的 实际 执行 时 间 , STS $ 
法 的 平均 压缩 时 间 比 ATS 算法 短 ， 并 且 伴 随 着 数据 集 的 增 大 ， 
差距 愈加 明显 。 
简化 率 (R) 是 反应 轨迹 数据 大 小 变化 的 性 能 指标 , 其 定义 


据 的 局 限 性 ， TD-TR 算法 通过 使 用 同 
步 欧 氏 距 离 (SED) 克 服 了 这 个 限制 。 从 速度 -误差 表 可 以 得 到 速 
度 间隔 和 相应 的 SED 误差 阔 值 ， 根 据 每 个 子 轨 迹 的 速度 间隔 ， 
可 以 从 速度 -误差 表 中 获得 相应 的 SED 误差 阐 值 ， 该 误差 闵 值 


是 用 于 简化 该 子 轨迹 的 TD-TR 算法 中 使 用 的 参数 .最 后 将 简化 WR- s ， 其 中 m 代表 原始 轨迹 的 轨迹 点 数目 ，n 代表 简化 
m 


m 


KT CIEN IRURE DERE. BERAI T, . ”后 轨迹 的 轨迹 点 数目 。 图 5 对 两 种 算法 的 简化 率 进行 了 对 比 ， 
随 着 原始 轨迹 规模 的 增 大 , ATS 与 STS 算法 的 平均 简化 率 均 会 
提高 ,两 种 算法 的 简化 率 总 体 相差 不 大 。 当 原始 轨迹 较 小 时 (800 


TD-TR 算法 的 时 间 复 杂 度 为 O(n?) ， 所 以 文中 的 STS 算 


»r N o 2 
法 的 时 间 复 杂 度 为 O(n? ) 。 es 
3 ”实验 与 结果 算法 的 简化 率 略 低 于 ATS 算法 。 
3.1 实验 配置 及 数据 集 E mas 
在 本 节 中 ， 进 行 了 大 量 的 实验 。 有 具体 配置 如 下 : 处 理 器 为 
Intel® Core™ i5-6300HQ, CPU(22.30 GHz 8 GB RAM 中 实现 ; NNI 
实验 环境 为 Windows 10 操作 系统 和 Anaconda 3 开发 环境 ， JU F 
Python 3.6 实现 ,实验 数据 从 项 目 Microsoft GeoLife 45-517 181, a — 


Microsoft GeoLife 的 位 置 数 据 是 在 两 年 多 时 间 中 (2007 年 4 月 NUM 
到 2009 年 8 月 ) 从 178 个 人 中 获得 的 。 数 据 集 中 包括 各 种 运输 图 4 不 同 规模 数据 集 下 两 种 算法 平均 压缩 时 间 的 比较 
方式 ， 如 骑 自行 车 ， 步 行 和 铁路 。 大 约 91% 的 轨迹 采样 率 为 1- 


201804.02394v1 
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Simplification ratio comparison 


妈 5 不 同 规模 数据 集 下 两 种 算法 平均 简化 率 的 比较 
3.2.2 基于 误差 度量 的 评估 

SED 误差 是 指 原始 轨迹 点 p, 与 简化 后 轨迹 中 的 估计 点 
p, ' 之 间 的 距离 ( 即 SED 距离 》，p, "坐标 位 置 的 计算 方式 与 
2.4 节 中 相同 。 如 图 6 所 示 ， 原 始 轨迹 了 = ( pi, Poo Di) 及 简 
化 轨迹 人 =(Po Po Pe Ps). P 的 估计 点 是 p,'， 则 p, ft 
SED 误差 是 p, 5 p, "的 距离 。 


图 6 SED 误差 示例 
空间 误差 与 SED 误差 类 似 ， 只 是 SED 误差 中 计算 Dp, 与 
p, lH SED 距离 ， 空 间 误差 则 计算 其 垂直 欧 氏 距离 。 


给 定 原始 轨迹 点 p; = (x, Yot) RR pua m (Xan Vavta) 
gi PoPa) 
P KREE E REF p, 和 pn 的 估计 点 p 


i-l i 
Pia ， 类 似 地 计算 p, ' 处 的 速度 。 相对 于 p; 的 速度 误差 被 定义 


为 原始 轨迹 点 p, 的 速度 与 简化 后 轨迹 点 p, "的 速度 差 值 。 


SED 误差 、 速 度 误差 及 空间 误差 是 衡量 轨迹 简化 算法 性 能 
的 重要 依据 。 图 7~9 分 别 描述 了 STS. ATS. DP 和 TD-TR 四 
种 算法 在 SED 误差 、 速 度 误差 、 空 间 误差 方面 的 比较 。 由 图 7 
可 得 ， 随 着 数据 集 的 增 大 ， 四 种 算法 的 SED 误差 均 会 增 大 ， 本 
文 所 提出 的 STS 算法 的 SED 误差 增幅 远 远 低 于 ATS 和 DP 算 
法 ， 当 数据 集 较 小 时 STS 的 SED 误差 最 小 ， 但 在 数据 集 较 大 
时 TD-TR 算法 的 SED 误差 最 小 。 
图 8 中 四 种 算法 的 速度 误差 均 会 随 着 轨迹 规模 的 增 大 而 增 
大 ， 在 数据 集 较 大 时 ，DP 与 ATS 算法 的 速度 误差 增幅 较 大 ， 
STS 与 TD-TR 算法 的 速度 误差 大 致 相同 ， 在 大 数据 集中 TD- 
TR 算法 速度 误差 更 小 ， 但 在 小 数据 集中 STS fT TD-TR 算 


法 。 


图 9 可 以 得 到 以 下 结论 : STS 算法 的 空间 误差 在 小 数据 
小 ， 但 在 大 数据 及 中 略 高 于 TD-TR 算法 。 
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本 文 研究 移动 对 象 原 始 轨 迹 的 简化 轨迹 的 简化 问题 。 在 
ATS 算 法 的 基础 上 ， 提 出 了 基于 分 段 的 轨迹 简化 算法 STS 算 法 。 
STS 算 法 首先 通过 聚 类 方法 从 速度 值 的 分 布 中 导出 代表 性 速度 
区 间 ， 通 过 其 代表 性 速度 值 ， 将 整个 轨迹 划分 成 若干 子 轨迹 。 
然后 分 别 计 算 各 个 子 轨 迹 段 的 SED 误 差 阔 值 。 最 后 使 用 TD-TR. 
算法 导出 简化 轨迹 。 为 了 验证 本 文 提出 的 算法 的 有 效 性 ， 使 用 
真实 轨迹 数据 集 进行 大 量 的 实验 。 实验 表明 , STS 算 法 在 压缩 
间 、 简 化 率 、 平 均 SED 误 差 、 平 均 空 间 误差 等 方面 优 于 ATS 算 法 


za 


T 


总 体 来 说 ，STS 在 微小 数据 集中 的 表现 更 好 。 在 接 下 来 的 研究 
中 ， 为 了 满足 基于 位 置 服务 工具 对 移动 对 象 数据 分 析 处 理 的 需 
求 ， 将 进一步 与 深度 学 习 相 结合 ， 考 虑 如 何 对 移动 对 象 轨迹 数 
据 进行 预测 等 一 系列 处 理 ， 研 究 预 测 模型 ， 将 简化 前 后 轨迹 放 
入 预测 模型 做 对 比 衡量 。 
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